شناسایی واژههای غیرمفهومی (رایج) در نمایه سازی خودکار مدارک فارسی
نویسندگان
چکیده مقاله:
پژوهش حاضر با هدف شناسایی واژههای غیرمفهومی در زبان فارسی و تهـیه سیاههای از این واژهها برای نمایهسازی خودکار متنهای فارسی در رشتههای روانشناسی، علومتربیتی و کتابداری و اطلاعرسانی انجام شده است. این پژوهش با روش تحلیل محتوا صورت گرفتهاست. جامعه آماری این پژوهش را مقالههای مندرج در آخرین شماره منتشرشده در مجلههای علمی و پژوهشی ِ رشتههای علـومتربیتی، روانشناسی و کتابداری و اطلاعرسانی در سال 1385 تشکیل میدهد. نمونه شامل 63 مقاله است. گردآوری دادهها با استفاده از تفکیک واژگان به صورت ماشینی و دستی صورت گرفت. نتایج پژوهش نشان داد: 1- افعال ( معین و همراهشونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علائم سجاوندی بهعنوان واژه نمایهها ظاهر نمیشوند، بنابراین، آنها را میتوان واژههای غیرمفهومی یا به اصطلاح واژههای بازدارنده تلقی کرد. 2- بدون احتساب علائم سجاوندی، در رشتة علوم تربیتی 96/39%، در رشته روانشناسی 57/38% و در رشـــته کتابداری 12/38% از حجم متون را واژههای غیرمفهومی تشکیل میدهد. 3- واژههای بازدارندة پربسامد در هرسه حوزه تقریبا مشابه است. 4- از تعداد 248552 واژه (بدون احتساب علائم سجاوندی) که پیکرة زبانی مورد مطالعه را تشکیل میداد، 97280 واژه که 94/38% کل واژهها را شامل میشود، جزء واژههای بازدارنده هستند.5- نتیجة مقایسه فهرست فارسی حاصل از پژوهش با فهرست واژههای بازدارنده انگلیسی نشان داد بین این دو فهرست به میزان 5/28% همپوشانی وجود دارد. 6. همچنین 38/20% از واژهها فاقد توزیع بسامدی یکسان در سه رشتة مورد مطالعه میباشند.
منابع مشابه
نمایه سازی سلسله مراتبی مدارک ساخت یافته
هرروز بر تعداد مدارک ساختیافته (مانند مدارک قابل نشانهگذاری) در اینترنت اضافه میشود. این نوع مدارک ساختیافته، علاوه بر محتوای مدرک، قالب معنایی مدرک را نیز ذخیره میکنند؛ بنابراین مدرک بهصورت یک درختواره ذخیره میگردد. از طرفی با افزایش اطلاعات موجود در شبکه، تقاضا برای بازیابی اطلاعات، ...
متن کاملمدل دو مرحله ای شکاف- گلچین برای نمایه سازی خودکار متون فارسی
Purpose: Each language has its own problems. This leads to consider appropriate models for automatic indexing of every language. These models should concern the exhaustificity and specificity of indexing. This paper aims at introduction and evaluation of a model which is suited for Persian automatic indexing. This model suggests to break the text into the particles of candidate terms and to c...
متن کاملمروری بر نمایه سازی خودکار و نرم افزارهای رایج در تولید آن
گسترش روزافزون منابع اطلاعات علمی، باعث گرایش متخصصان اطلاعات به فشرده گویی و استفاده از راهکارهای آسان سازی جست وجوی اطلاعات شده است. در این بین، نمایه سازی یکی از باصرفه ترین راه های میانبر جهت رسیدن به اطلاعات است. در بین روش های بی شمار نمایه سازی که هریک دارای نقاط ضعف و قوت خاص خود هستند، نمایه سازی خودکار یکی از روش هایی است که علاوه بر جست وجوپذیر نمودن اطلاعات موجود، باعث افزایش توان آ...
متن کاملامکان سنجی نمایه سازی ماشینی مدارک زبان فارسی در مرکز اطلاع رسانی جهاد کشاورزی
هدف از انجام این پژوهش بررسی فرایند نمایه سازی ماشینی و سنجش امکانات لازم برای استفاده از نمایه سازی ماشینی در مرکز اطلاع رسانی جهاد کشاورزی می باشد تا الگویی مناسب جهت استفاده از نمایه سازی ماشینی به زبان فارسی در ایران ارائه گردد. گردآوری اطلاعات به شیوه مصاحبه و استناد به مدارک موجود انجام گرفته است. از روش طراحی سیستم استفاده شده است؛ به طوریکه پس از مقایسه وضعیت کنونی نمایه سازی در مرکز مو...
متن کاملتبیین دستوری نمایه سازی مفعول در زبان فارسی
در این مقاله ابتدا به بررسی ماهیت دستوری عناصر نمایه مفعولی در زبان فارسی خواهیم پرداخت، زیرا ساختار دستوری جمله بر اساس تلقی ما از ماهیت دستوری این عناصر، به شیوه متفاوتی تبیین میشود. پس از آن به ساخت دستوری بندهای متعدی دارای نمایه مفعولی در چارچوب دستور نقش و ارجاع نظر میافکنیم و سعی بر آن است که مطابق ادعای نظریه، ساخت نحوی این بندها مطابق با شرایط خاص زبان فارسی و بدون تحمیل مقولات خارجی...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
عنوان ژورنال
دوره 12 شماره شماره 4 (پیاپی 48)
صفحات 9- 36
تاریخ انتشار 2009-12-22
با دنبال کردن یک ژورنال هنگامی که شماره جدید این ژورنال منتشر می شود به شما از طریق ایمیل اطلاع داده می شود.
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023